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摘 要 : 当前 农业 实体 识别 标注 数据 稀缺 ， 部 分 公开 的 农业 实体 识别 模型 依赖 手工 特征 ， 实 体 识别 精度 低 。 
虽然 有 的 农业 实体 识别 模型 基于 深度 学 习 方 法 ,实体 识别 效果 有 所 提高 ， 但 是 存在 模型 推理 延迟 高 、 参 数 
量 大 等 问题 。 本 研究 提出 了 一 种 基于 知识 蒸馏 的 农业 实体 识别 方法 。 首 先 ， 利 用 互联 网 的 海量 农业 数据 构 


建 农业 知识 图 谱 ， 在 此 基础 上 通过 远程 监督 得 到 弱 标 注 语 料 。 其 次 ， 针 对 实体 识别 的 特点 ， 提 出 基于 注意 


力 的 BERT 层 融合 模型 (BERT-ALA) ， 融 合 不 同 层次 的 语义 特征 ; 结合 双向 长 短期 记忆 网 络 (BiLSTM) 和 
条 件 随机 场 CRF， 得 到 BERT-ALA+BiLSTM+CRF 模 型 作为 教师 模型 。 最 后 ， 用 BiLSTM+CRF 模型 作为 学 生 
模型 蒸馏 教师 模型 ， 保 证 模型 预测 耗 时 和 参数 量 符合 线 上 服务 要 求 。 在 本 研究 构建 的 农业 实体 识别 数据 集 
以 及 两 个 公开 数据 集 上 进行 实验 ， 结 果 显 示 ，BERT-ALA+BiLSTM+CRF 模型 的 macro-f1 相对 于 基线 模型 
BERT+ BiLSTM+CRF 平 均 提高 1%。 莹 馏 得 到 的 学 生 模型 BiLSTM+CRF 的 macro-Fl 相对 于 原始 数据 训练 的 模 


型 平均 提高 3.3%， 预 测 耗 时 降低 了 33%， 存 储 空间 降低 98%。 试 验 结果 验证 了 基于 注意 力 机 制 的 BERT 层 融 


合 模 型 以 及 知识 蒸馏 在 农业 实体 识别 方面 具有 有 效 性 。 
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1 引言 以 解决 农业 技术 人 员 不 足 的 问题 。 目 前 ， 互 联网 


上 的 农业 知识 技术 问答 主要 由 人 工 专家 来 完成 ， 
随 着 农业 互联 网 的 发 展 与 农业 从 业 人 员 的 新 ”这样 不 仅 效率 低 ， 而 且 受 技术 专家 资源 稀缺 的 限 


老 更 将 ,需要 进行 农业 知识 的 快速 传播 和 应 用 ， ” 制 。 
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通过 建立 农业 知识 图 谱 来 进行 智能 回答 ， 将 大 大 
提高 农业 知识 问答 效率 。 

农业 智能 问答 系统 包括 信息 抽取 …、 知 识 图 
谱 构 建 、 问 名 理解 和 基于 知识 库 的 问答 四 个 环 
节 。 信 息 抽取 用 于 理解 问题 并 基于 农业 知识 图 谱 
回答 问题 ， 对 于 农业 智能 问答 系统 至 关 重 要 。 命 
名 实体 识别 是 指 识别 出 文本 中 的 实体 指称 项 
及 其 类 别 ， 是 自然 语言 处 理 中 一 项 基础 任务 。 基 
于 农业 实体 识别 可 抽取 文本 中 关键 信息 ， 构 建 农 
业 知 识 图 谱 ， 实 现 农业 知识 结构 化 ， 进 而 基于 知 
识 图 谱 进 行 农业 知识 问答 。 互 联网 上 储存 着 大 量 
的 非 结 构 化 农业 文本 ， 如 何 将 这 些 杂 乱 无 章 的 农 
业 文 本 转化 成 结构 化 的 农业 知识 ， 构 建 农业 知识 
图 谱 ， 是 实现 农业 智能 问答 系统 的 重要 环节 。 

农业 知识 数据 特别 是 标注 数据 难以 获取 ， 有 
关 农 业 知 识 图 谱 构 建 以 及 信息 抽取 的 研究 相对 较 
少 。 已 有 研究 的 农业 实体 识别 方案 往往 需要 大 量 
的 训练 数据 训练 ， 因 此 应 用 这 些 方案 时 ， 需 要 人 
工 标注 实体 识别 数据 ， 成 本 很 高 。 使 用 的 模型 也 
存在 需要 手工 提取 特征 、 实 体 识别 效果 不 佳 等 问 
题 ; 或 者 没有 考虑 实际 线 上 对 预测 耗 时 、 模 型 大 
小 的 要 求 ， 停 留 在 实验 验证 阶段 。 李 贯 峰 和 张 
有 中 使 用 词典 来 实现 实体 识别 ,构建 了 基于 农 
业 本 体 的 web 知 识 抽 取 模 型 ， 因 为 web 知 识 库 难 
以 覆盖 所 有 的 农业 实体 ， 因 此 存在 着 召回 率 低 的 
缺点 。 王 春雨 和 王 芳 HAES | KHET 
命名 实体 识别 。 但 这 种 方法 需要 手工 构造 特征 且 
模型 容量 低 ， 难 以 完成 复杂 的 实体 识别 任务 。 印 
度 的 Malarkodi 等 “应 用 了 条 件 随 机 场 模型 ， 输 
入 一 些 句法 词汇 特征 ， 同 样 存 在 依赖 手工 构造 特 
征 的 问题 。 刘 晓 俊 ”使 用 了 基于 密集 连接 的 双 
向 长 短 记 忆 网 络 (Dense Connected Bi-directional 
Long Short-Term Memory, DC-LSTM) + (Con- 
ditional Random Field, CRF) 架构 进行 面向 农业 
领域 的 命名 实体 识别 研究 。 由 于 这 是 一 种 多 层 的 
密集 连接 的 结构 ， 推 理 耗 时 长 、 模 型 参数 量 多 ， 
难以 在 线 上 进行 实际 使 用 。Biswas 等 利用 
WordNet ”进行 农业 实体 识别 ， 该 方法 本 质 上 与 


词典 匹配 差别 不 大 ， 但 是 利用 WordNet 词 的 相关 
性 ， 扩充 了 词典 。 

目前 ， 无 论 是 基于 条 件 随 机 场 等 传统 方法 ， 
还 是 基于 深度 学 习 "" 的 实体 识别 模型 ， 都 是 数 
据 驱 动 的 ， 需 要 海量 的 标注 数据 作为 支撑 。 在 农 
业 领 域 缺乏 大 量 现成 的 标注 数据 情况 下， 直接 套 
用 通用 领域 的 实体 识别 方案 难以 奏效 。 因 此 ， 本 
研究 提出 了 一 种 基于 远程 监督 "的 农业 领域 数 
据 标注 方案 ， 以 解决 农业 实体 识别 标注 数据 稀缺 
的 问题 。 

远程 监督 的 思想 由 Mintz 于 第 47 届 计算 语言 
协会 年 会 上 (Association for Computational Lin- 
guistics) 上 首次 提出 ， 通 过 将 知识 库 与 文本 对 齐 
来 自动 构建 大 量 训练 数据 ,减少 模型 对 人 工 标注 
数据 的 依赖 ， 增 强 模 型 跨 领 域 适应 能 力 ， 被 大 量 
运用 在 关系 抽取 领域 ”。 远 程 监督 提出 的 动机 
是 解决 关系 抽取 标注 数据 难以 获取 的 问题 ， 而 农 
业 实 体 识别 数据 存在 标注 数据 难以 获取 的 问题 ， 
因此 本 文 将 远程 监督 的 思想 迁移 到 实体 识别 领 
域 。 通 用 领域 具有 一 词 多 义 性 质 ， 在 通用 领域 给 
远程 监督 带 来 很 大 的 噪声 。 但 是 ， 在 农业 等 专 有 
领域 , 虽然 存在 漏 标 注 的 情况 ,但 是 词 的 语义 固 
定 ， 整 体 上 噪声 比较 小 ， 因 此 远程 监督 是 可 行 的 
方案 ， 可 以 很 好 地 规避 农业 领域 缺乏 标注 数据 的 
问题 。 

本 研究 采用 目前 在 自然 语言 处 理 领域 流行 的 
大 规模 预 训练 模型 基于 转换 器 的 双向 编码 表征 
(Bidirectional Encoder Representations from Trans- 
formers, BERT) 2 ， 一 方面 ， 预 训练 模型 在 海 
量 互联 网 数据 上 的 训练 ， 模 型 容量 大 ， 能 够 拟 合 
复杂 的 实体 识别 任务 ; 另 一 方面 ， 农 业 实体 识别 
标注 数据 比较 稀缺 ， 而 预 训练 模型 基于 大 规模 语 
料 训练 的 ， 包含 了 很 多 基础 的 语言 知识 ， 在 大 规 
模 预 训练 模型 的 基础 上 进行 微调 ， 农 业 实体 识别 
模型 也 包含 了 这 部 分 基础 的 语言 知识 。 此 外 ， 本 
研究 还 结合 农业 实体 识别 的 特点 ， 提 出 了 基于 注 
意 力 的 层 融 合 机 制 (Attention-Based Layer Ag- 
gregation) 对 BERT 做 出 改进 。 
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在 线 问答 系统 需要 时 间 和 空间 复杂 度 低 的 模 
型 。 前 面 提 出 了 基于 BERT 的 模型 ， 但 是 BERT 
因为 参数 量 大 导致 推理 耗 时 高 ， 很 难 满足 实时 推 
理 需 求 。 模 型 菩 馏 "是 将 训练 好 的 复杂 模型 推 
广 “ 知 识 ” 能 力 迁移 到 一 个 结构 更 为 简单 的 网 络 
中 ,或 者 通过 简单 的 网 络 去 学 习 复 杂 模型 中 的 
“知识 ”。 其 中 ， 训 练 好 的 复杂 模型 称 为 教师 模 
型 ， 而 学 习 的 简单 模型 称 为 学 生 模型 。 本 研究 考 
虑 到 模型 上 线 对 于 预测 耗 时 和 模型 大 小 的 要 求 ， 
用 BiLSTM + CRF") 作为 学 生 模 型 AST BT TA 
得 到 的 基于 BERT 的 系列 模型 。 


2 研究 方法 


2.1 整体 架构 

本 研究 提出 的 农业 实体 识别 架构 主要 包括 了 
弱 标 注 59 语 料 构建 模块 、 模 型 训练 模块 以 及 线 
上 推理 模块 (图 1)。 


弱 标 注 语 料 构建 模块 


模型 训练 模块 


+ 教师 模型 一 一 | 学 生 模型 


EIR Wiki 标注 数据 


线 上 推理 模块 


学 牛 模 型 
文本 输入 Ei 生 模 型 
用 户 端 fees | 
词典 


注 :Wiki 为 互联 网 上 的 多 人 协作 的 写作 系统 
图 1 农业 实体 识别 系统 架构 图 


Fig.l Architecture of agriculture named entity 
recognition 

其 中 ， 弱 标注 语 料 构建 模块 采用 了 远程 监督 
的 思想 ， 分 为 两 个 阶段 : 一 是 农业 知识 图 谱 构 建 
阶段 ， 扑 取 互 联网 的 农业 资源 ， 过 滤 得 到 农业 实 
体 ， 构 建 农业 知识 图 谱 ; 二 是 数据 弱 标 注 阶 段 ， 
通过 前 向 最 大 匹配 标注 出 文本 里 面 的 农业 实体 ， 
用 于 模型 训练 。 其 中 ， 模 型 训练 模块 又 包含 了 两 
个 阶段 : 一 是 教师 模型 训练 阶段 ， 用 弱 标 注 数据 
去 训练 本 文 提 出 的 教师 模型 ; EB A HR 
段 "”， 用 参数 量 少 的 模型 作为 学 生 模 型 蒸馏 教 
师 模 型 。 线 上 推理 模块 接受 用 户 端 发 送 的 文本 ， 


合并 词典 、 学 生 模型 的 结果 ,返回 给 用 户 端 。 
2.2 数据 来 源 


目前 农业 领域 缺乏 开源 的 中 文 农业 知 识 图 谱 
和 农业 实体 识别 语 料 。 互 动 百 科 、 百 度 百 科 都 是 
开源 的 中 文 百 科 网 站 ,包含 了 大 量 农 业 方面 的 实 
体 和 知识 ,很 多 农业 网 站 上 相关 的 农业 知识 也 与 
百科 网 站 上 相同 ， 不 同 的 百科 网 站 里 面 农业 方面 
的 知识 类 似 。 考 虑 到 互动 百科 比 其 他 百科 类 网 站 
以 及 开源 的 农业 信息 网 站 更 容易 爬 取 ， 本 研究 选 
择 疏 取 互 动 百科 数据 ， 建 立 农业 知识 图 谱 ， 用 于 
构建 农业 知识 图 谱 以 及 标注 实体 识别 训练 语 料 。 
将 互动 百科 数据 库 下 的 农业 实体 对 应 的 文档 进行 
分 句 ， 得 到 农业 实体 识别 语 料 。 


2.3 基于 远程 监督 的 农业 命名 实体 识别 语 
料 标注 


将 远程 监督 思想 用 在 实体 识别 领域 ， 是 假设 
一 个 句子 中 的 某 个 词 与 知识 图 谱 里 面 的 某 个 实体 
对 应 的 名 称 或 者 别称 相同 ， 那 么 这 个 词 就 对 应 知 
识 图 谱 里 面 的 实体 。 远 程 监督 的 思想 存在 两 方面 
的 问题 : 首先 ， 对 于 一 词 多 义 的 实体 会 存在 标注 
错误 ， 例 如 把 Apple 手 机 的 “苹果 ”对 应 到 水 果 
的 “苹果 ”， 但 是 一 词 多 义 在 农业 等 专业 领域 的 
文本 里 面 是 可 以 忽略 的 ; 其 次 ， 对 于 不 在 农业 知 
识 图 谱 里 面 的 实体 ， 存 在 漏 标 注 。 通 过 远程 监督 
方法 对 文本 进行 弱 标 注 可 以 分 为 两 个 阶段 : 一 是 
疏 取 互联 网 上 多 人 协作 的 写作 系统 (Wiki) 建立 
农业 知识 图 谱 ， 通 过 对 Wiki 本 体 的 标签 信息 应 
用 规则 匹配 ， 推 新 出 实体 的 类 型 ， 过 滤 得 到 实体 
类 型 为 作物 、 病 害 、 农 药 等 的 实体 ， 构 建 农 业 知 
识 图 谱 ; 二 是 对 语 料 进行 弱 标 注 ， 将 农业 知识 图 
谱 的 实体 用 前 级 树 "" REO, PE ies, X 
文本 中 的 句子 进行 前 向 最 大 匹配 ， 从 而 得 到 实体 
弱 标 注 的 结果 。 例 如 句子 “怎样 进行 番茄 分 苗 ” 
通过 前 向 最 大 匹配 ， 就 可 以 得 到 番 茹 两 字 对 应 农 
业 知 识 图 谱 里 面 “ 番 葫 ” 这 个 实体 ， 番 茄 实体 的 
类 别 是 作物 (crop)。 进 而 生成 标签 O 
(“ 怎 ”) 0O(“ 样 ”3) 0O (“ 进 ”) 0 
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( “ÍT” ) B crop ( “#” ) I crop ( “ih” ) 
O (“分 ”) O ( “HH” ). FE, O (other) 
表示 非 实体 ，B (begin) 表示 实体 开始 位 置 ，I 
(interior) 表示 实体 内 部 以 及 结束 位 置 ，crop 表 
示 实 体 类 型 为 作物 类 型 。B _ crop I crop 表示 类 型 
为 作物 的 实体 ， 分 别 对 应 于 实体 的 开始 和 结束 的 
位 置 ， 在 句子 中 为 第 4 和 第 5 个 词 (“ 番 前”)。 


2.4 教师 模型 


深度 学 习 模 型 + 条 件 随机 场 ”是 命名 实 
体 识 别 领域 的 主流 模型 。 深 度 学 习 模 型 指 具 
有 BiLSTM 2 和 BERT'2 一 类 的 模型 ， 用 于 提 
取 文 本 的 语义 特征 ， 得 到 词 到 每 个 实体 类 别 的 概 
率 ; 条 件 随机 场 用 于 计算 各 个 实体 类 别 的 转移 概 
率 ， 结 合生 成 概率 和 转移 概率 ， 进 行 end2end 的 
训练 。 
2.4.1 BERT 模 型 

BERT 模 型 是 谷歌 AI 团 队 于 2018 年 发 布 的 
预 训练 模型 ， 在 11 种 不 同 自然 语言 处 理 验 证 任 
务 中 创造 了 最 佳 成 绩 。 简 单 来 说 ，BERT 在 大 量 
文本 语 料 上 使 用 自 监督 的 方式 训练 了 一 个 通用 的 
语言 理解 模型 ， 然 后 在 这 个 模型 上 设置 轻 量 级 的 
下 游 任务 接 口 去 执行 特定 的 自然 语言 处 理 任 务 。 
BERT 模 型 结构 如 图 2 所 示 。 

BERT 模 型 主要 包含 三 个 部 分 : 输入 层 、 多 


转换 器 (transformer encoder) ， 以 及 输出 层 。 输 
A JE H ied fe A (token-embedding) . M tik A 
(position-embedding) FU Be tx A (segment-em- 
bedding) ZH. tlie AERC ASSP A ia], K 
转化 为 向 量 ; DEEA EAE fi A E A 
特征 向 量 ， 从 而 让 模型 获取 到 词 的 位 置信 息 ; Be 
各 入 用 于 区 分 模型 输入 的 两 个 句子 。Transform- 
er encoder "通过 自 注意 力 机 制 (self attention) , 
实现 词 与 词 的 相互 交互 ， 获 得 句子 的 语义 表征 。 
输出 层 在 句子 的 语义 表征 基础 上 ， 根据 下 游 任务 
来 定 具 体 的 结构 。BERT 训练 分 为 预 训 练 阶段 和 
微调 阶段 两 个 阶段 。 在 预 训练 阶段 采用 自 监督 的 
训练 ， 主 要 任务 是 Masked Language Model, 也 
即 随机 掩盖 句子 里 面 的 某 些 词 ， 预 测 这 些 词 ， 这 
个 过 程 无需 标 注 语 料 ， 可 以 直接 通过 互联 网 上 的 
海量 文本 获取 ; 在 微调 阶段 ， 针 对 特定 任务 ， 设 
置 不 同 的 输出 层 和 目标 函数 ， 利 用 少量 标注 数据 
进一步 更 新 模型 参数 ， 即 可 完成 针对 特定 领域 的 
模型 训练 。 
2.4.2 ”长 短 记忆 网 络 

长 短 记 人 忆 (Long Short-Term Memory, 
LSTM) 网 络 ” 用 门 机 制 去 改善 循环 神经 网 络 
(Recurrent Neural Network，RNN) 的 梯度 消失 
问题 ， 双 向 循环 神经 网 络 (Bi-directional Long 
Short-Term Memory，BiLSTM) 由 两 个 单 向 的 
LSTM 网 络 构成 ， 两 个 网 络 中 一 个 随时 间 正 向 传 
播 ， 另 一 个 随时 间 逆 向 传播 。 对 于 文本 序列 而 


B-crop * I-crop t t t 
CRF 
会 会 t 会 会 t 
BiLSTM 
会 t 会 t t 


Soitence 
图 2 BERTRAA 
Fig. 2 Architecture of BERT 


言 ，BiLSTM 能 有 效 的 捕获 上 下 文 信息 ， 在 实体 
识别 等 序列 标注 任务 上 有 效 。 
2.4.3 条件 随机 场 

条 件 随 机 场 (Conditional Random Field, 
CRF) 模型 是 一 种 概率 无 向 图 模型 ， 可 以 解 
决 序 列 标注 任务 。 给 定 观 察 序列 X 的 条 件 下 求 
Y,，Y 隐 状态 序列 的 概率 为 P(Y|X)。 在 命名 实 
体 识别 上 使 用 的 CRF 主要 是 CRF 线 性 链 ， 建 模 


的 数学 公式 下 所 示 。 
1 K 
POR) = Zr PE Wf) 0 
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Z(x) = Bexp Y w f(x) (2) 


其 中 ,ff 是 特征 函数 ; wi 是 特征 函数 的 权 
重 ; Z(x) 是 归 一 化 因子 。 模 型 在 预测 的 时 候 使 
用 维特 比 算法 ， 这 是 一 种 动态 规划 算法 ， 在 给 定 
观察 序列 X 和 参数 的 条 件 下 ， 求 出 最 大 的 标记 序 
列 立 的 概率 。 

2.4.4 深度 学 习 模 型 + 条 件 随 机 场 

深度 学 习 模型 本 质 上 是 把 深度 模型 视 为 文本 
特征 提取 器 ， 得 到 文本 特征 后 ， 通 过 全 连接 层 后 
得 到 词 到 实体 类 别 的 得 分 ， 记 为 P， 输入 到 CRF 
层 中 。CRF 层 包含 一 个 转移 矩阵 4， 表 示 两 个 标 
签 的 转移 得 分 。 模 型 对 句子 x 标签 等 于 y 打 分 ， 
打分 经 过 softmax 后 得 到 概率 ， 表 达 式 如 下 所 示 。 


score (x, y) = YP iy, T SA, on (3) 
P( 站 exp(score (x,y) ) (4) 
> exp ( score (x, y) ) 


可 以 看 出 ， 整 个 句子 的 打分 等 于 各 个 位 置 的 
打分 之 和 ， 每 个 位 置 的 打分 由 深度 学 习 模 型 的 输 
出 了 以 及 转移 得 分 A 决定 。 模 型 训练 时 ， 最 大 化 
对 数 损失 函数 即 可 。 

深度 模型 可 以 是 BERT、BiLSTM、 空 洞 卷 
积 神 经 网 络 (Iterated Dilated Convolutional Neu- 
ral Network, IDCNN) 等 。 目 前 在 实体 识别 领域 
用 的 最 多 的 是 BERT 和 BiLSTM。BiLSTM+CRF 
2016 年 由 Dong 等 2 提出 ， 用 于 通用 领域 命名 实 
体 识 别 ; BERT+CRF 由 Souza 等 '” 提出， 用 于 
葡萄 牙 语 的 命名 实体 识别 ; 但 是 BERT 的 trans- 
former 的 自 注意 力 机 制 会 破坏 BERT 的 相对 位 置 
信息 呈 。 为 解决 BERT 相 对 位 置信 息 抽取 能 力 不 
足 的 问题 ， 一 种 方法 是 用 BERT+BiLSTM 2 作 
为 深度 模型 ，BERT+BiLSTM+CREF 由 Jiang 等 2 
提出 ， 用 于 通用 领域 的 命名 实体 识别 。BERT 起 
到 提供 动态 词 向 量 的 作用 ，BiLSTM 用 于 建 模 相 
对 位 置信 息 。 因 此 ， 本 研究 设置 了 三 种 基线 模型 
BiLSTM + CRF'™!, BERT + CRF”! 和 BERT + 
BiLSTM + CRF ”来 进行 农业 实体 识别 实验 ， 进 


而 选择 出 试验 效果 较 好 的 模型 作为 教师 模型 ， 蒜 
馏 轻 量化 的 学 生 模型 。 这 三 种 基线 模型 在 其 他 领 
域 都 被 验证 有 效 。 
2.4.5 “基于 注意 力 的 BERT 层 融合 模型 机 制 
实体 识别 任务 对 于 底层 的 语法 、 语 义 特征 需 
求 比较 大 ， 对 于 上 层 语 义 特征 的 需求 反而 没有 那 
么 强烈 。BERT 是 一 个 多 层 transformer 7!) 的 特征 
提取 器 ，BERT-base 模 型 一 共 包 含 了 12 层 。 多 层 
transformer 一 方面 减 慢 模型 的 推理 速度 。 另 一 方 
il, Jawahar“ 2 在 ACL 2019 发 表 的 论文 指出 ， 
BERT 的 低层 网 络 学 习 到 了 短语 级 别 的 信息 表征 ， 
BERT 的 中 层 网 络 学 习 到 了 丰富 的 语言 学 特征 
Iii BERT 的 高 层 网 络 则 学 习 到 了 丰富 的 语义 信息 
寺 征 。 对 于 通用 领域 的 实体 识别 而 言 ， 模 型 专注 
于 顶层 语义 特征 而 忽视 了 实体 识别 任务 阴 需 的 底 
层 特征 。 对 于 垂直 领域 ， 如 农业 的 实体 识别 而 
言 ， 判 别 实体 的 边界 比 判 别 实体 的 类 别 更 难 ， 因 
为 垂直 领域 实体 含义 相对 通用 领域 的 判别 容易 一 
些 。 因 此 底层 特征 包含 的 短语 级 别 的 信息 表征 对 
于 判别 实体 边界 更 重要 ， 仅 仪 考虑 顶层 的 高 层 语 
义 信息 显然 不 合理 。 另 外 一 方面 ， 本 研究 远程 监 
督 得 到 的 标注 数据 的 量 有 限 ， 直 接 取 高 层 的 信息 
容易 导致 过 拟 合 。 因 此 ， 本 研究 提出 一 种 基于 注 
意 力 的 BERT 层 融合 机 制 。BERT 模 型 包含 多 层 
transformer encoder， 不 同 大 小 的 BERT 模型 
transformer encoder 层 数 不 同 ， 一 般 有 12、24、 
48 三 种 ， 将 BERT 的 层 数 记 为 L， 做 基于 注意 力 
机 制 的 层 融 合 ， 其 中 a 和 yy 都 是 可 训练 的 参数 ， 
如 公式 (5) 和 公式 (6) 所 示 。 


` 


h= yd wih, (5) 
_ exp(%) 
w= ene) (6) 


其 中 , 1 为 BERT 模 型 中 间 层 和 输出; w 为 每 
一 层 的 权重 。 

本 研究 将 基于 注意 力 的 BERT 层 融合 模型 命 
名 为 BERTALA (Attention Based Layer Aggrega- 
tion for BERT) ， 后 面 的 试验 统一 用 这 个 名 称 ， 
此 机 制 可 以 应 用 在 任意 基于 BERT 的 模型 中 。 将 


ChinaXiv 合 作 期 刊 


123 


202302.00216v1 


chinaXiv 


BERT-ALA 应 用 在 BERT+BiLSTM+CRF 中 ， 得 
到 BERT-ALA+BiLSTM+CRF， 主 要 结构 如 图 3 
所 示 。BERT 模 型 不 同 层 的 输出 通过 一 组 可 以 学 
习 的 权重 参数 加 权 得 到 最 后 的 特征 表示 ， 再 送 入 
后 续 的 BiLSTM 以 及 CRF 里 面 进行 实体 识别 。 


ErP $ t 
ttt t t 


会 会 t t t 


Attention Layer Aggregation 


全 
全 
合 
Ea 


t t t 


l E 


”会 会 会 
A A a | ISERI 


Sentence 


Teee 
[CLs] Ea a) asp 


图 3 BERT-ALA+BiLSTM+CRF 架构 图 
Fig. 3 Architecture of BERT-ALA+BiLSTM+CRF 


2.5 模型 蒸馏 


模型 蒸馏” 就 是 将 训练 好 的 复杂 模型 推广 
能 力 “ 知 识 ” 迁 移 到 一 个 结构 更 为 简单 的 网 络 
中 ， 或 者 通过 简单 的 网 络 去 学 习 复杂 模型 中 的 
“知识 ”。 前 面 提 出 了 基于 BERT 的 几 种 模型 ， 但 
是 BERT 因为 参数 量 大 导致 推理 耗 时 高 ， 很 难 满 
足 实 时 推理 需求 。 因 此 ， 本 研究 用 BiLSTM+ 
CRF 作为 学 生 模型 ， 蒸 馏 前 面 提出 的 教师 模型 。 
相对 于 传统 模型 蒸馏 只 是 蒸馏 最 后 一 层 的 输出 而 
言 ， 本 研究 还 蒸馏 了 教师 模型 中 间 的 BiLSTM 
。 蔡 馏 的 损失 函数 一 共 分 为 3 项 ， 目 标 函 数 表 
达 如 下 。 
1oss = a, MSEloss (ħsusru (T), hazsm(S)) + 
a,CEloss (herr (T), hcrr(S)) + 
a,;CRFIOSS (Y pues Aerr(S)) (7) 
其 中 ，S 表 示 学 生 模 型 ; T 表 示 教 师 模型 ; 
Rayer (model) RIR model fi layer 2 (BiLSTM 层 ， 
CRF 层 ) firth. PUK, 蒸馏 损失 的 3 项 分 别 表 示 


Ml all 


H: (1) 学 生 模型 BiLSTM 层 输出 拟 合 教 师 模型 
BiLSTM 层 的 输出 ， 拟 合 损失 是 平均 平方 误差 
MSE; (2) 学 生 模 型 CRF 层 输出 的 概率 分 布 ， 
与 教师 模型 CRF JE in E AIRE K A Aa R E L R ; 
(3) ERHI CREA", HEP, H CRF 层 输出 
概率 与 真实 的 实体 识别 标签 计算 得 到 。 


2.6 模型 推理 
在 推理 阶段 ， 接 受用 户 端 文本 输入 后 ， 包 含 


三 个 阶段 的 流程 。 

(1) 通过 词典 匹配 得 到 句子 里 面 的 农业 类 型 
实体 S1。 

(2) 通过 学 生 模 型 预测 得 到 句子 里 面 的 农业 
实体 S2。 

(3) 模型 和 词典 得 到 的 标注 结果 用 求 并 集 的 
方法 聚合 ， 返 回 给 用 户 端 ， 对 于 在 S2 而 不 在 S1 
中 的 实体 ， 是 词典 中 还 不 存在 的 ， 返 回 人 工 专 家 
复查 ,得 到 新 词 加 入 词典 ， 以 提高 词典 的 履 
盖 率 。 


3 试验 验证 与 分 析 


3.1 评价 指标 

试验 指标 采用 精确 匹配 模式 ， 被 实体 识别 模 
型 识别 出 来 的 称 为 mention, mention 和 ground 
truth 里 面 的 实体 都 表示 为 (start，end，type) 的 
形式 ，start 和 end 表 示 mention 或 者 entity 的 边界 ， 
type 表 示 类 型 。 对 于 实体 识别 领域 来 说 ，TP、FP 
和 FN 的 定义 如 下 。 

(1) True Positive (TP): 农业 实体 识别 模型 
识别 出 来 的 mention， 与 ground truth 里 面 的 实体 
能 对 应 上 ; 

(2) False Positive (FP): 农业 实体 识别 模 
型 识别 出 来 的 mention， 与 ground truth 里 面 的 实 
体 不 能 对 应 上 ， 这 里 也 包含 了 边界 识别 正确 ， 但 
是 类 型 识别 错误 的 情况 ; 

(3) False Negative (FN): ground truth 里 面 
存在 的 entity， 没 有 被 农业 实体 识别 模型 识别 
出 来 。 
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根据 上 面 定义 的 TP、FP 和 FN 可 以 计算 Pre- 
cision, Recall 和 Fl 分 数值 ， 分 别 表示 准确 率 、 


召回 率 以 及 下 分 数值 如 下 。 
TP 
P. 7 一 一 
recison 二 (8) 
TP 

Recall = ——_—— (9) 

TP + FN 

2 x Precisi Recall 

py = 2% Precision x Reca fies 


Precision + Recall 
实体 包含 多 种 类 型 ， 不 同类 型 的 实体 分 别 计 
算 实 体 识别 的 I， 然后 计算 整体 的 FI， 整体 1 
采用 macro-Fl 2 的 方式 计算 ， 是 各 个 类 别 F1 的 
平均 ， 公 式 如 下 所 示 。 


Fi, 
1 


i= 


(11) 


macroF| = 
3.2 试验 设计 


本 研究 选取 了 农业 和 医学 两 个 领域 ， 总 共 三 
个 数据 集 来 进行 实验 验证 。 选 取 医 学 领域 的 原因 
是 因为 医学 领域 与 农业 领域 一 样 ， 都 属于 特定 领 
域 ， 另 外 ， 医 学 领域 实体 识别 相对 农业 领域 数据 
研究 的 比较 多 ， 容 易 获 取 开 源 的 实验 识别 标注 数 
据 。 第 一 个 数据 集 是 本 研究 构建 的 数据 集 ， 后 面 
两 个 数据 集 是 公开 的 数据 集 。 

数据 一 : 从 互动 百科 获取 的 农业 领域 文本 ， 
按照 句子 进行 切 分 。 采 用 基于 远程 监督 的 方式 构 
建 训 练 集 ， 验 证 集 由 人 工 标注 。 其 中 包含 作物 实 
体 4662 人 个， 疾病 实体 695 人 个。 训练 集 和 测试 集 的 
比例 是 8:2， 训 练 集 有 10,277 条 数据 ， 测 试 集 有 
2532 条 数据 。 数 据 集 已 经 在 数据 建 模 和 数据 分 析 
竞赛 平台 kaggle 上 开源 (https:/www.kaggle.com/ 
supportvectordevin/agriculture-pedia. ) o 

数据 二 : 来 源 于 讯 飞 开放 平台 的 “农业 问答 
数据 处 理 挑战 赛 ”里 面 的 实体 识别 任务 (http:/ 
challenge.xfyun.cn/topic/info?type=agriculture.) 2 , 
标注 出 农作物 、 病 虫害 和 农药 的 命名 实体 标签 。 
数据 集 包 含 病 虫害 实体 100,660 个， 农药 实体 
250,740， 作 物 实体 5796 人 个。 训练 集 包含 15,624 
个 样本 ， 测 试 集 包 含 3906 个 样本 。 


数据 三 : 医学 领域 数据 ， 来 源 于 ccks 2017 
的 task 2， 面 向 电子 病历 的 命名 实体 识别 (Clini- 
cal Named Entity Recognition, CNER) (https:// 
github.com/zjy-ucas/ChineseNER)。 即 对 于 给 定 的 
一 组 电子 病历 文档 ( 纯 文 本 文件 )， 任 务 的 目标 
是 识别 并 抽取 出 与 医学 临床 相关 的 实体 名 字 。 数 
据 集 包含 症状 和 体征 实体 12,821 个 、 检 查 和 检验 
实体 17,655 个 、 疾 病 和 诊断 实体 4560 个、 治疗 
实体 4940 个 、 身 体 部 位 实体 17,556 个 。 训 练 集 
包含 10,787 个 样本 ,测试 集 包 含 2697 个 样本 。 

模型 超 参 数 方面 ，LSTM+CRF 的 词 向 量 采 
用 fast text Chinese word embedding *”, LSTM 隐 
含 层 数量 是 128。 训 练 方面 ， 采 用 Adam 优化 
器 ，BERT 层 学 习 速 率 为 10”， 其 他 层 为 10 ，， 
batch size 是 32， 每 个 batch 采 用 batch 内 部 最 长 的 
句子 做 padding， 以 减少 内 存 消耗 但 是 最 长 截 
WHR EB WY 64. 
3.3 基线 模型 对 比 验 证 

在 三 个 数据 集 上 ， 测 试 了 三 种 基线 模型 的 
macro-F1， 结 果 如 表 1 所 示 。 

表 1 三 种 基线 模型 macro-F1 对 比 


Table 1 Comparison of macro-F1 with three baseline models 


模型 数据 一 数据 二 数据 三 
BiLSTM+CRF 0.8420 0.8027 0.8872 
BERT+CRF 0.9195 0.9366 0.9036 
BERT+BiLSTM+CRF 0.9266 0.9402 0.9105 


分 析 验 证 结果 得 到 三 个 结论 。 

(1) 关于 数据 一 的 结果 表明 ， 远 程 监督 的 训 
练 集 训练 的 模型 在 人 工 标注 的 测试 集 上 表现 良 
好 ,证 明了 通过 远程 监督 构建 数据 集 的 有 效 性 。 

(2) 引入 大 规模 预 训练 模型 BERT 相对 于 
BiLSTM 能 显著 提高 模型 的 表现 ; 相对 于 数据 一 
的 macro-F1 提高 7.75%， 数 据 二 的 marco-F1 提高 
13.39%， 数 据 三 是 医疗 实体 识别 数据 ， 提 升 相 对 
小 一 些 ， 为 1.64%。 

(3) 在 BERT 后 面 加 入 BiLSTM， 能 在 一 定 
程度 上 缓解 BERT 相 对 位 置 捕获 不 强 的 缺陷 ,在 
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数据 一 上 ，macro-Fl 相对 于 BERT+CRF 提高 了 
0.71%; 在 数据 二 上 ， 提 高 了 0.36%; 在 数据 三 
上 ， 提 高 了 0.69%。 


3.4 基于 注意 力 的 BERT 层 融合 机 制 有 效 
性 验证 


针对 BERT+CRF 和 BERT+BiLSTM+CRF 两 
个 BERT 系 模型 ， 分 别 用 层 融 合 机 制 改进 BERT， 
验证 结果 是 否 对 实体 识别 结果 有 提高 。 结 果 如 
表 2 所 示 。 

R2 ， 层 融合 机 制 有 效 性 验证 结果 


Table 2 Validation of layer aggregation mechanism 


模型 数据 一 数据 二 ”数据 三 
BERT+CRF 0.9195 0.9366 0.9036 
BERT-ALA+CRF 0.9293 0.9444 0.9153 
BERT+BiLSTM+CRF 0.9266 0.9402 0.9105 


BERT-ALA+BiLSTM+CRF 0.9360 0.9549 0.9237 


验证 结果 表明 ， 基 于 注意 力 的 层 融 合 机 制 在 
三 个 数据 集 上 都 能 提高 实体 识别 的 效果 。 说 明 层 
融合 机 制 在 实体 识别 领域 具有 一 定 普 适 性 。 
BERT-ALA+CRF 和 BERT-ALA+BiLSTM+CRF 相 
对 于 基准 模型 分 别 有 大 约 1% 的 macro-F1 的 
提高 。 

BERT-ALA+BiLSTM+CRE 在 所 有 模型 里 面 
的 效果 最 好 ， 所 以 被 选择 为 教师 模型 ， 指 导 蒸 馏 
部 分 的 学 生 模 型 学 习 。 本 研究 主要 是 将 BERT- 
ALA+BiLSTM+CRF 应 用 在 农业 实体 识别 领域 。 


3.5 模型 蒸馏 效果 验证 


通过 模型 蒸馏 的 方法 得 到 的 教师 模型 是 
BERT-ALA+BiLSTM+CRF， 学 生 模 型 是 BiL- 
STM+CRF。 与 教师 模型 相 比 ， 学 生 模 型 的 时 间 
和 空间 复杂 度 都 有 改善 。 本 研究 用 预测 1000 个 
样本 的 平均 耗 时 表示 模型 的 预测 耗 时 ， 用 于 比较 
学 生 模型 时 间 复 杂 度 的 改善 ; 模型 大 小 用 模型 占 
据 的 存储 空间 表示 ， 用 于 验证 学 生 模 型 空间 复杂 
度 的 提高 。 由 于 这 两 个 指标 与 数据 无 关 ， 因 此 本 
研究 在 3 个 数据 进行 实验 后 取 平 均值 。 结 果 表 


明 ， 蒸 馏 后 的 学 生 模型 相对 于 教师 模型 每 预测 千 
个 样本 的 耗 时 减少 了 33%， 模 型 大 小 减少 了 
98%， 时 间 复 杂 度 和 空间 复杂 度 都 有 了 很 大 的 改 
善 ， 更 加 适用 于 线 上 预测 场景 。 

本 研究 测试 了 蒸馏 得 到 学 生 模 型 相对 于 用 标 
注 数 据 训练 的 同等 模型 的 效果 提高 ，maro-F1 指 
标的 对 比 结果 如 表 3 所 示 。 

表 3 学 生 模型 与 教师 模型 macro-F1 对 比 


Table 3 Comparison of macro-F1 with teacher model and 


student model 


模型 数据 一 数据 二 数据 三 
BiLSTM+CRF 0.8420 0.8027 0.8872 
Teacher Model 0.9360 0.9549 0.9237 
Student Model 0.8730 0.8436 0.9154 


验证 结果 表明 ， 采 用 模型 蒸馏 的 训练 方法 ， 
相对 于 训练 数据 训练 的 同等 模型 ， 学 生 模 型 学 到 
了 更 多 的 暗 知识 。 蒸 馏 得 到 的 学 生 模型 在 数据 一 
E, macro-F\ 提高 了 3.1%。 在 数据 二 上 ， 提 高 
了 4.09%， 在 数据 三 上 ， 提 高 了 2.82%。 


3.6 学 生 模 型 效果 展示 


本 研究 主要 应 用 场景 是 农业 实体 识别 ， 因 此 
以 番茄 为 例 ， 选 取 了 几 个 番茄 的 百 问 百 答 7” 问 
名 以 及 回答 ， 验 证 最 终 线 上 蒙 饮 的 学 生 模 型 效 
果 ， 句 子 及 其 识别 的 结果 如 下 。 

提问 1: 番 熙 病毒 病症 状 及 防治 方法 是 什么 ? 

识别 结果 : lmention':' 番 茄 病毒 病 '，'type': 
‘disease’, 'offset':0} 

提问 2: 番茄 筋 腐 病 是 怎样 产生 的 ， 如 何 
防止 ? 

识别 结果 : {mention':' 番 茄 筋 腐 病 ',，'type': 
‘disease’, 'offset':0} 

提问 3: 症状 : 番茄 细菌 性 斑 疹 病 主 要 危害 
叶 、 蔡 、 花 、 叶 柄 和 果实 。 

识别 结果 : {'mention':' Z jh All E HE EE J ', 
'type':'disease’, 'offset':3 | 

上 述 提问 1、2 和 3 的 实体 都 能 完整 识别 出 
来 。 其 中 ， 提 问 2 和 3 中 的 实体 “番茄 筋 腐 病 ” 
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和 “番茄 细菌 性 斑 疹 病 ” 都 没有 出 现在 词典 中 ， 
也 就 是 不 存在 于 标注 数据 中 ,但 是 模型 能 识别 成 
功 ， 验 证 了 模型 具有 良好 的 泛 化 性 能 。 


4 结论 


本 研究 提出 用 远程 监督 构建 农业 实体 识别 数 
据 ， 标 注 数据 存在 漏 标注 的 问题 。 基 于 漏 标注 的 
句子 远 比 标注 正确 的 句子 少 的 假设 ， 解 决 的 思路 
是 用 弱 标 注 的 数据 训练 一 个 初级 版 本 的 实体 识别 
模型 ， 再 用 实体 识别 模型 选择 训练 集 里 面 一 些 置 
信和 度 低 的 结果 ， 返 回来 进行 校正 ， 最 后 用 校正 后 
的 数据 对 基础 版 本 模型 进行 微调 。 

(1) 主要 研究 了 农业 领域 的 实体 识别 问题 。 
针对 农业 领域 缺乏 实体 识别 标注 数据 的 问题 ， 提 
出 爬 取 互联 网 开源 数据 库 “ 互 动 百 科 ” 构 建 农业 
知识 图 谱 ， 远 程 监督 实现 实体 识别 数据 弱 标 注 的 
方案 。 

(2) 针对 过 往 研 究 使 用 的 模型 识别 效果 不 
佳 、 依 赖 手 工 特征 的 问题 ,结合 农业 实体 识别 的 
特点 ， 提 出 了 基于 注意 力 层 融合 机 制 的 BERT- 
ALA+BiLSTM+CRF 模型， 在 3 个 数据 集 上 都 取 
得 了 最 优 的 效果 ， 验 证 了 层 融合 机 制 的 有 效 性 。 
本 研究 的 目的 主要 是 将 这 个 模型 应 用 在 农业 实体 
识别 领域 。 

(3) 针对 基于 BERT 的 模型 预测 耗 时 长 的 问 
题 ， 用 BiLSTMT+CREF 模型 作为 学 后 模 型 提出 的 
28/8 BERT-ALA+BiLSTM+CRF 模型 ， 大 大 降低 
了 线 上 模型 的 时 间 复 杂 度 和 空间 复杂 度 ， 使 得 训 
练 后 的 模型 在 移动 端 应 用 成 为 可 能 。 

本 研究 提出 的 实体 识别 方法 在 解决 农业 领域 
实体 识别 问题 方面 实现 了 农业 智能 化 究 方法 ， 还 
可 以 拓展 应 用 到 其 他 标注 数据 缺失 的 垂直 领域 实 
体 识别 场景 ， 如 医学 、 教 育 、 军 事 等 。 
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Semantic Aggregation and Model Distillation 
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Abstract: With the development of smart agriculture, automatic question and answer (Q&A) of agricultural knowledge is needed 
to improve the efficiency of agricultural information acquisition. Agriculture named entity recognition plays a key role in auto- 
matic Q&A system, which helps obtaining information, understanding agriculture questions and providing answer from the 
knowledge graph. Due to the scarcity of labeled ANE data, some existing open agricultural entity recognition models rely on 
manual features, can reduce the accuracy of entity recognition. In this work, an approach of model distillation was proposed to 
recognize agricultural named entity data. Firstly, massive agriculture data were leveraged from Internet, an agriculture knowl- 
edge graph (AgriKG) was constructed. To overcome the scarcity of labeled named agricultural entity data, weakly named entity 
recognition label on agricultural texts crawled from the Internet was built with the help of AgriKG. The approach was derived 
from distant supervision, which was used to solve the scarcity of labeled relation extraction data. Considering the lack of la- 
beled data, pretraining language model was introduced, which is fine tuned with existing labeled data. Secondly, large scale pre- 
training language model, BERT was used for agriculture named entity recognition and provided a pretty well initial parameters 
containing a lot of basic language knowledge. Considering that the task of agriculture named entity recognition relied heavily 
on low-end semantic features but slightly on high-end semantic features, an Attention-based Layer Aggregation mechanism for 
BERT(BERT-ALA) was designed in this research. The aim of BERT-ALA was to adaptively aggregate the output of multiple 
hidden layers of BERT. Based on BERT-ALA model, Bidirectional LSTM (BiLSTM) and conditional random field (CRF) were 
coupled to further improve the recognition precision, giving a BERT-ALA+BiLSTM+CRF model. Bi-LSTM improved BERT's 
insufficient learning ability of the relative position feature, while conditional random field models the dependencies of entity 
recognition label. Thirdly, since BERT-ALA+BiLSTM+CRF model was difficult to serve online because of the extremely high 
time and space complexity, BiLSTM+CRF model was used as student model to distill BERT-ALA+BiLSTM+CRF model. It fit- 
ted the BERT-ALA+BiLSTM+CRF model's output of BiLSTM layer and CRF layer. The experiment on the database construct- 
ed in the research, as well as two open datasets showed that (1) the macro-F1 of the BERT-ALA + BiLSTM + CRF model was 
improved by 1% compared to the baseline model BERT + BiLSTM + CRF, and (2) compared with the model trained on the orig- 
inal data, the macro-F1 of the distilled student model BiLSTM + CRF was increased by an average of 3.3%, the prediction time 
was reduced by 33%, and the storage space was reduced by 98%. The experimental results verify the effectiveness of the BERT- 
ALA and knowledge distillation in agricultural entity recognition. 

Key words: distant supervision; agriculture knowledge graph; agriculture Q&A system; named entity recognition; knowledge 
distillation;deep learning; BERT; Bi-LSTM 
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